Liste des adresses URL des collectes ciblées du web français par la BnF
Présentation
Dans le cadre de sa mission patrimoniale de dépôt légal de l’internet, la BnF collecte régulièrement un échantillon du web français, constitué à partir de collectes larges et de collectes ciblées. Ces dernières regroupent les collectes « courantes » (pour les sites de référence sur un champ disciplinaire donné) et les collectes « projet » (portant sur un événement ou un thème particulier). Ce jeu de données contient une partie de la liste des adresses URL collectées depuis 2011 lors des collectes ciblées.
Contenu du jeu de données
Le jeu est constitué de plus d'une centaine de tableaux au format csv contenant plus de 110 000 adresses URL de sites, blogs, comptes de réseaux sociaux collectés dans le cadre des collectes ciblées.
Pour chaque collecte courante et/ou projet, sept tableaux en .csv sont mis à disposition : la liste des sites collectés de 2011-2016 et la liste des sites collectés en 2017, en 2018, en 2019, en 2020, en 2021, en 2022 et en 2023.
Ils sont regroupés en 23 fichiers compressés. Chaque fichier compressé contient les tableaux csv d’une collecte courante thématique et les csv des collectes projets en relation directe avec cette collecte courante, ainsi qu’un fichier texte de description des collectes. Certaines collectes projets sont indépendantes des collectes courantes en raison du caractère pluridisciplinaire de la thématique.
Toutes ces adresses URL servent de point de départ à la constitution des archives de l’internet, consultables par les chercheurs dans les salles de lecture de la BnF et dans certaines bibliothèques de dépôt légal imprimeur. Chaque adresse URL est accompagnée d’éléments de description (thème, mots-clés, informations descriptives complémentaires) et de paramètres techniques sur sa collecte (fréquence, historique de l’URL).
Contexte de production
Les collectes courantes portent sur plus d’une dizaine de milliers de sites, sélectionnés par les départements de collections de la BnF, en fonction de la spécificité et de la politique documentaire de chaque département. Elles sont réalisées depuis 2011 à des fréquences variables (de « plusieurs fois par jour » à « une fois par an ») en fonction des différents sites et selon les demandes des départements.
En partenariat avec la BnF, cinq bibliothèques partenaires (Bibliothèque nationale et universitaire de Strasbourg, Médiathèque centrale d'Agglomération Emile Zola de Montpellier, Bibliothèque municipale de Nancy, Bibliothèque de l'Alcazar à Marseille et Bibliothèque départementale de la Réunion) ont une collecte courante, respectivement sur les Alsatiques, le Languedoc-Roussillon, la Lorraine, la Provence-Alpes-Côte d'Azur et la Réunion.
Les collectes projets se caractérisent par leur sensibilité plus forte à l’actualité et par leur transversalité ou spécificité thématique. Elles sont souvent réalisées en coopération avec des partenaires (bibliothèques, centres de recherche, associations). La BnF dispose également d’une procédure de « collecte d'urgence » qui permet de capturer rapidement des sites à collecter à une date précise. Cette collecte concerne des sources en ligne susceptibles de disparaître rapidement.
Formats
Listes en .csv et textes d’accompagnement en .rtf, compressés dans des dossiers en .zip.
Télécharger
- Liste des sites sélectionnés par le département Arts du spectacle de 2011 à 2023
- Liste des sites sélectionnés par le département Cartes et plans de 2011 à 2023
- Liste des sites sélectionnés par le département Littérature et arts de 2011 à 2023
- Liste des sites sélectionnés par le département Musique de 2011 à 2023
- Liste des sites sélectionnés par le département Philosophie, histoire, sciences de l'homme de 2011 à 2023
- Liste des sites sélectionnés par le département Sciences et techniques de 2011 à 2023
- Liste des sites sélectionnés par le département Son, Vidéo, Multimédia de 2011 à 2023
- Liste des sites d'actualités collectés de 2011 à 2023
- Liste des sites d'administration collectés de 2011 à 2023
- Liste des sites sélectionnés par le département du Dépôt légal de 2011 à 2023
- Liste des sites sélectionnés par le département Droit, économique, politique de 2011 à 2023
- Liste des sites sélectionnés par le département Estampes de 2011 à 2023
- Liste des sites sélectionnés par le département Découverte des Collections et Accompagnement à la recherche de 2011 à 2023
- Liste des sites des collectes Jeux olympiques collectés de 2012 à 2022
- Liste des sites sélectionnés par la Médiathèque centrale d'Agglomération Emile Zola de Montpellier de 2017 à 2023
- Liste des sites sélectionnés par la Bibliothèque municipale de Nancy de 2017 à 2023
- Liste des sites sélectionnés par la Bibliothèque nationale et universitaire de Strasbourg de 2013 à 2023
- Liste des sites sélectionnés par la Bibliothèque de l'Alcazar à Marseille de 2022à 2023
- Liste des sites sélectionnés par la Bibliothèque départementale de la Réunion de 2022à 2023
- Liste des sites sur le thème des enjeux environnementaux collectés de 2020 à 2023
- Liste des sites sur le thème de l'intelligence artificielle collectés de 2020 à 2023
- Liste des sites en lien avec un corpus de recherche collectés en 2022
Fiche Technique
Date de mise en ligneJanvier 2020
Fréquence de mise à jourAnnuelle
FormatCSV RTF ZIP
Licence SujetsSites web Archives de l'internet